En este trabajo se abordará el problema de agrupar los barrios de Medellín de acuerdo a distintas dimensiones y analizar espacialmente las agrupaciones.

#Dimensión Salud

La dimensión de salud mide que tan informados se encuentran las Medellinenses sobre los métodos de planificación familiar y que tanto hacen uso del sistema de salud de la ciudad.

Para la el análisis de la dimensión de SALUD en los barrios de Medellín se toman las siguientes preguntas con sus respectivos indicadores:

P_308 - ¿Usted planifica? Posibles respuestas: * 99 No responde * 88 No aplica * 1 Si * 2 No

P_324 - ¿En los últimos 30 días, tuvo alguna enfermedad, accidente, problema odontológico, o algún otro problema de salud que no haya implicado hospitalización? Posibles respuestas: * 99 No responde * 88 No aplica * 1 Si * 2 No

P_325 - ¿Para tratar ese problema de salud, que hizo principalmente? Posibles respuestas * -99 No responde * -98 No sabe. * -88 No aplica * -77 Otro * 1 Consultó la Red de servicios de salud. * 2 Acudió a una terapia alternativa. * 3 Acudió a un boticario o farmaceuta * 4 Consultó a un tegua, empírico, curandero, yerbatero, comadrona, etc. * 5 Usó remedios caseros * 6 Se automedicó * 7 Nada

P_326 - ¿Cuál fue la principal razón por la que no solicitó o no recibió atención por el problema de salud? Posibles respuestas * -99 No responde * -98 No sabe * -88 No aplica * -77 Otro * 1 El caso era leve * 2 No tuvo tiempo * 3 El centro de Atención en salud queda lejos * 4 Falta dinero * 5 Mal servicio o citas distanciadas en el tiempo * 6 No lo atendieron * 7 No confía en los médicos o personal de salud * 8 Consultó antes y no le resolvieron el problema * 9 Muchos trámites para la cita

P_327 - En los últimos 12 meses (en caso de no haberlos utilizado ponga (0) Utilizó los servicios de promoción y prevención Posibles respuestas * 1 - Si * 2 - No

Librerias necesarias para el proceso.

## Loading required package: usethis
## Loading Utiltae
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## -------------------------------------------------------------------------
## You have loaded plyr after dplyr - this is likely to cause problems.
## If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
## library(plyr); library(dplyr)
## -------------------------------------------------------------------------
## 
## Attaching package: 'plyr'
## The following objects are masked from 'package:dplyr':
## 
##     arrange, count, desc, failwith, id, mutate, rename, summarise,
##     summarize
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
## 
## Attaching package: 'GGally'
## The following object is masked from 'package:dplyr':
## 
##     nasa
## Loading required package: gsubfn
## Loading required package: proto
## Loading required package: RSQLite
## Loading required package: sp
## rgdal: version: 1.4-8, (SVN revision 845)
##  Geospatial Data Abstraction Library extensions to R successfully loaded
##  Loaded GDAL runtime: GDAL 2.4.2, released 2019/06/28
##  Path to GDAL shared files: /Library/Frameworks/R.framework/Versions/3.6/Resources/library/rgdal/gdal
##  GDAL binary built with GEOS: FALSE 
##  Loaded PROJ.4 runtime: Rel. 5.2.0, September 15th, 2018, [PJ_VERSION: 520]
##  Path to PROJ.4 shared files: /Library/Frameworks/R.framework/Versions/3.6/Resources/library/rgdal/proj
##  Linking to sp version: 1.3-2
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following objects are masked from 'package:plyr':
## 
##     arrange, mutate, rename, summarise
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
## 
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine

El insumo principal de este trabajo son los datos abiertos del portal Medata[1] y en particular la Encuesta de Calidad de Vida Medellín Cómo vamos.

Preparación del DataFrame de Trabajo.

Depuración de columnas

Estadisticas básicas SALUD

##            comuna             barrio        p_307            p_308       
##  EL POBLADO   : 22   SAN PABLO   :  3   Min.   :0.2500   Min.   :0.1374  
##  ROBLEDO      : 22   EL LLANO    :  2   1st Qu.:0.7595   1st Qu.:0.2992  
##  BELEN        : 21   EL SALADO   :  2   Median :0.7903   Median :0.3528  
##  SAN CRISTOBAL: 21   LA ESPERANZA:  2   Mean   :0.7860   Mean   :0.3562  
##  SAN JAVIER   : 19   LA FLORIDA  :  2   3rd Qu.:0.8207   3rd Qu.:0.3985  
##  VILLA HERMOSA: 18   LA PALMA    :  2   Max.   :1.0000   Max.   :1.0000  
##  (Other)      :187   (Other)     :297   NA's   :1        NA's   :3       
##      p_324             p_325             p_326             p_327         
##  Min.   :0.01105   Min.   :0.01105   Min.   :0.00070   Min.   :0.004073  
##  1st Qu.:0.06574   1st Qu.:0.04742   1st Qu.:0.00366   1st Qu.:0.054422  
##  Median :0.08421   Median :0.06178   Median :0.00579   Median :0.077491  
##  Mean   :0.08903   Mean   :0.06718   Mean   :0.00843   Mean   :0.084350  
##  3rd Qu.:0.10614   3rd Qu.:0.07926   3rd Qu.:0.00922   3rd Qu.:0.095364  
##  Max.   :0.28571   Max.   :0.28571   Max.   :0.12500   Max.   :0.500000  
##  NA's   :16        NA's   :19        NA's   :132       NA's   :17

Existen valores nulos dentro del dataframe, analizando cuales de ellos son debido a que no respondieron ninguna de las preguntas de la encuesta relacionadas a Salud, se encuentra que los nulos no son debido a que no quisieron responder la encuesta completa en temas de salud, sino que personas que no quisieron contestar alguna pregunta particular.

##  [1] encuesta persona  comuna   barrio   estrato  p_15     p_307   
##  [8] p_308    p_324    p_325    p_326    p_327   
## <0 rows> (or 0-length row.names)

##2. Agrupamientos

Para efectos de la ejecución de los modelos, los valores del data frame ECV_SALUD_BARRIO que sean nulos se llenan con 0 dado que cuando se presenta un valor NAN significa que el indicador no aplica para el barrio y el cero lo representa

Si bien, la mayoria de los indicadores del dataframe ECV_SALUD_BARRIO se encuentran en función de personas para evitar cualquier dato erroneo por efectos de cambios en escala, se normalizan los datos

Se utilizan diferentes métodos para determinar el k óptimo a utilizar en el algoritmo de clusterización - Kmeans

Dado que para los diferentes métodos de determinación del k óptimo, hay dos posibles opciones, k =2 y k = 4, se ejecuta el algoritmo con estos posibles valores y se tomará aquel que tenga minimo error.

## [1] "Total SS k=2: "
## [1] 7.246404
## [1] "Total SS k=4: "
## [1] 7.246404

En k = 4 el ajuste del modelo mejora , por lo tanto se toma éste como el número de k para el modelo

Se procede a agregar el cluster a la data original

##                                             comuna
## ALTAVISTA-AGUAS FRÍAS                    ALTAVISTA
## ALTAVISTA-ALTAVISTA CENTRAL              ALTAVISTA
## ALTAVISTA-ÁREA DE EXPANSIÓN ALTAVISTA    ALTAVISTA
## ALTAVISTA-ÁREA DE EXPANSIÓN BELÉN RINCÓN ALTAVISTA
## ALTAVISTA-BUGA PATIO BONITO              ALTAVISTA
## ALTAVISTA-CABECERA ALTAVISTA             ALTAVISTA
##                                                                  barrio
## ALTAVISTA-AGUAS FRÍAS                                       AGUAS FRÍAS
## ALTAVISTA-ALTAVISTA CENTRAL                           ALTAVISTA CENTRAL
## ALTAVISTA-ÁREA DE EXPANSIÓN ALTAVISTA       ÁREA DE EXPANSIÓN ALTAVISTA
## ALTAVISTA-ÁREA DE EXPANSIÓN BELÉN RINCÓN ÁREA DE EXPANSIÓN BELÉN RINCÓN
## ALTAVISTA-BUGA PATIO BONITO                           BUGA PATIO BONITO
## ALTAVISTA-CABECERA ALTAVISTA                         CABECERA ALTAVISTA
##                                              p_307     p_308      p_324
## ALTAVISTA-AGUAS FRÍAS                    0.6587302 0.4206349 0.11904762
## ALTAVISTA-ALTAVISTA CENTRAL              0.7731755 0.3096647 0.13214990
## ALTAVISTA-ÁREA DE EXPANSIÓN ALTAVISTA    0.6970954 0.2116183 0.07883817
## ALTAVISTA-ÁREA DE EXPANSIÓN BELÉN RINCÓN 0.7887931 0.1465517 0.23275862
## ALTAVISTA-BUGA PATIO BONITO              0.6666667 0.4375000 0.10119048
## ALTAVISTA-CABECERA ALTAVISTA             0.8253012 0.5060241 0.00000000
##                                               p_325 p_326      p_327
## ALTAVISTA-AGUAS FRÍAS                    0.11904762     0 0.07936508
## ALTAVISTA-ALTAVISTA CENTRAL              0.09664694     0 0.06311637
## ALTAVISTA-ÁREA DE EXPANSIÓN ALTAVISTA    0.07883817     0 0.06639004
## ALTAVISTA-ÁREA DE EXPANSIÓN BELÉN RINCÓN 0.19827586     0 0.13793103
## ALTAVISTA-BUGA PATIO BONITO              0.06845238     0 0.09226190
## ALTAVISTA-CABECERA ALTAVISTA             0.00000000     0 0.00000000
##                                          cluster
## ALTAVISTA-AGUAS FRÍAS                          4
## ALTAVISTA-ALTAVISTA CENTRAL                    2
## ALTAVISTA-ÁREA DE EXPANSIÓN ALTAVISTA          2
## ALTAVISTA-ÁREA DE EXPANSIÓN BELÉN RINCÓN       2
## ALTAVISTA-BUGA PATIO BONITO                    4
## ALTAVISTA-CABECERA ALTAVISTA                   4

Análisis para cada uno de los grupos

Grupo 1

##            comuna                   barrio      p_307            p_308  
##  LA CANDELARIA:1   EL CARMELO          :1   Min.   :0.0000   Min.   :0  
##  SAN CRISTOBAL:1   GUAYAQUIL           :1   1st Qu.:0.0625   1st Qu.:0  
##  ALTAVISTA    :0   AGUAS FRÍAS         :0   Median :0.1250   Median :0  
##  ARANJUEZ     :0   ALDEA PABLO VI      :0   Mean   :0.1250   Mean   :0  
##  BELEN        :0   ALEJANDRÍA          :0   3rd Qu.:0.1875   3rd Qu.:0  
##  BUENOS AIRES :0   ALEJANDRO ECHAVARRÍA:0   Max.   :0.2500   Max.   :0  
##  (Other)      :0   (Other)             :0                               
##      p_324       p_325       p_326       p_327          cluster 
##  Min.   :0   Min.   :0   Min.   :0   Min.   :0.000   Min.   :1  
##  1st Qu.:0   1st Qu.:0   1st Qu.:0   1st Qu.:0.125   1st Qu.:1  
##  Median :0   Median :0   Median :0   Median :0.250   Median :1  
##  Mean   :0   Mean   :0   Mean   :0   Mean   :0.250   Mean   :1  
##  3rd Qu.:0   3rd Qu.:0   3rd Qu.:0   3rd Qu.:0.375   3rd Qu.:1  
##  Max.   :0   Max.   :0   Max.   :0   Max.   :0.500   Max.   :1  
## 

Las preguntas que tienen mayor peso sobre este cluster son p_307- Porcentaje de personas que consideran que tienen suficiente información sobre los métodos de planificación familiar en donde el 12% de los encuestados dicen tener información y p_327 Porcentaje de personas que utilizan servicios de promocion y prevención, en donde el 25% de los encuestados los utilizan, para las demás respuestas, los encuestados no tienen ninguna opinión. La población de este cluster son solo dos barrios

Grupo 2

##               comuna                              barrio   
##  BELEN           :18   LA PALMA                      :  2  
##  LAURELES-ESTADIO:15   ALEJANDRÍA                    :  1  
##  LA AMERICA      :12   ALFONSO LÓPEZ                 :  1  
##  EL POBLADO      :11   ALTAVISTA CENTRAL             :  1  
##  ROBLEDO         :10   ÁREA DE EXPANSIÓN ALTAVISTA   :  1  
##  BUENOS AIRES    : 9   ÁREA DE EXPANSIÓN BELÉN RINCÓN:  1  
##  (Other)         :62   (Other)                       :130  
##      p_307            p_308            p_324             p_325        
##  Min.   :0.5526   Min.   :0.0000   Min.   :0.00000   Min.   :0.00000  
##  1st Qu.:0.7335   1st Qu.:0.2616   1st Qu.:0.05786   1st Qu.:0.04427  
##  Median :0.7711   Median :0.2941   Median :0.07955   Median :0.05875  
##  Mean   :0.7625   Mean   :0.2846   Mean   :0.08490   Mean   :0.06303  
##  3rd Qu.:0.8013   3rd Qu.:0.3134   3rd Qu.:0.10858   3rd Qu.:0.07884  
##  Max.   :0.9429   Max.   :0.4053   Max.   :0.28571   Max.   :0.26190  
##                                                                       
##      p_326               p_327            cluster 
##  Min.   :0.0000000   Min.   :0.00000   Min.   :2  
##  1st Qu.:0.0000000   1st Qu.:0.05405   1st Qu.:2  
##  Median :0.0006964   Median :0.07612   Median :2  
##  Mean   :0.0046191   Mean   :0.07768   Mean   :2  
##  3rd Qu.:0.0060423   3rd Qu.:0.09221   3rd Qu.:2  
##  Max.   :0.1250000   Max.   :0.37500   Max.   :2  
## 

El 76% de los habitantes de los barrios de este clusters consideran que tienen suficiente información sobre plnaificación familiar aunque solo el 28% de ellos planifican. Muy pocos se han sentido molestias de salud que no han requerido hospitalización

Grupo 3

##                   comuna                barrio      p_307       
##  PALMITAS            :3   BARRO BLANCO     :1   Min.   :0.7368  
##  SAN CRISTOBAL       :3   BATALLÓN GIRARDOT:1   1st Qu.:0.8922  
##  SAN ANTONIO DE PRADO:2   BOQUERÓN         :1   Median :0.9366  
##  BUENOS AIRES        :1   DESCONOCIDO      :1   Mean   :0.9197  
##  CASTILLA            :1   LA ALDEA         :1   3rd Qu.:1.0000  
##  SANTA ELENA         :1   LA ASOMADERA Nº 3:1   Max.   :1.0000  
##  (Other)             :1   (Other)          :6                   
##      p_308            p_324             p_325             p_326         
##  Min.   :0.4667   Min.   :0.00000   Min.   :0.00000   Min.   :0.000000  
##  1st Qu.:0.5604   1st Qu.:0.03676   1st Qu.:0.01838   1st Qu.:0.000000  
##  Median :0.5992   Median :0.08967   Median :0.08967   Median :0.000000  
##  Mean   :0.6490   Mean   :0.12065   Mean   :0.10397   Mean   :0.001225  
##  3rd Qu.:0.6920   3rd Qu.:0.20066   3rd Qu.:0.15514   3rd Qu.:0.000000  
##  Max.   :1.0000   Max.   :0.28571   Max.   :0.28571   Max.   :0.014706  
##                                                                         
##      p_327            cluster 
##  Min.   :0.00000   Min.   :3  
##  1st Qu.:0.04044   1st Qu.:3  
##  Median :0.13767   Median :3  
##  Mean   :0.11936   Mean   :3  
##  3rd Qu.:0.20000   3rd Qu.:3  
##  Max.   :0.22930   Max.   :3  
## 

El 91% de la población que respondió esta encuesta dice tener suficiente información sobre los métodos de planificación familiar y el 64% de ellos planifican, utilizan los servicios de promoción y prevención dado por la alcaldia en muy baja medida

Grupo 4

##            comuna                    barrio        p_307       
##  MANRIQUE     :14   LAS PALMAS          :  2   Min.   :0.6161  
##  VILLA HERMOSA:14   SAN PABLO           :  2   1st Qu.:0.7734  
##  POPULAR      :12   AGUAS FRÍAS         :  1   Median :0.7980  
##  ROBLEDO      :12   ALDEA PABLO VI      :  1   Mean   :0.7995  
##  ARANJUEZ     :11   ALEJANDRO ECHAVARRÍA:  1   3rd Qu.:0.8309  
##  EL POBLADO   :11   ALTAMIRA            :  1   Max.   :0.9200  
##  (Other)      :85   (Other)             :151                   
##      p_308            p_324             p_325             p_326         
##  Min.   :0.3200   Min.   :0.00000   Min.   :0.00000   Min.   :0.000000  
##  1st Qu.:0.3656   1st Qu.:0.06516   1st Qu.:0.04621   1st Qu.:0.000000  
##  Median :0.3854   Median :0.08306   Median :0.06039   Median :0.003824  
##  Mean   :0.3936   Mean   :0.08236   Mean   :0.06079   Mean   :0.005367  
##  3rd Qu.:0.4206   3rd Qu.:0.09858   3rd Qu.:0.07483   3rd Qu.:0.007219  
##  Max.   :0.5204   Max.   :0.26950   Max.   :0.17431   Max.   :0.042105  
##                                                                         
##      p_327            cluster 
##  Min.   :0.00000   Min.   :4  
##  1st Qu.:0.04913   1st Qu.:4  
##  Median :0.07340   Median :4  
##  Mean   :0.07636   Mean   :4  
##  3rd Qu.:0.09237   3rd Qu.:4  
##  Max.   :0.35000   Max.   :4  
## 

Análisis general de los grupos de acuerdo a las preguntas de la Encuesta de Calidad de Vida de Medellín

Características que distinguen un grupo de barrios de otro

Una caracteristica en común de los grupos de barrios es cuando han consultado en los servicios médicos han tenido un mal servicio

Conozcamos algunos barrios que pertenecen a cada uno de estos grupos

## [1] GUAYAQUIL  EL CARMELO
## 299 Levels: AGUAS FRÍAS ALDEA PABLO VI ALEJANDRÍA ... YARUMALITO
## [1] ALTAVISTA CENTRAL              ÁREA DE EXPANSIÓN ALTAVISTA   
## [3] ÁREA DE EXPANSIÓN BELÉN RINCÓN EL CORAZÓN EL MORRO           
## [5] LA ESPERANZA                   SAN JOSÉ DEL MANZANILLO       
## 299 Levels: AGUAS FRÍAS ALDEA PABLO VI ALEJANDRÍA ... YARUMALITO
## [1] LA ASOMADERA Nº 3 DESCONOCIDO       LA ALDEA          POTRERA MISERENGA
## [5] VOLCANA GUAYABAL  LA FLORIDA       
## 299 Levels: AGUAS FRÍAS ALDEA PABLO VI ALEJANDRÍA ... YARUMALITO

##3. Análisis espacial Se cargan las subdivisiones territoriales de Medellín, tomadas de la página web de opendata[2]

## OGR data source with driver: ESRI Shapefile 
## Source: "/Users/yosel/Desktop/Especializacion/AprendizajeEstadistico/Agrupamiento/Taller 01/TAE_T1/dataSet/Barrio_Vereda/Barrio_Vereda.shp", layer: "Barrio_Vereda"
## with 332 features
## It has 6 fields
## Integer64 fields read as strings:  OBJECTID SUBTIPO_BA

Función que busca capitalizar los nombres de los barrios

Debido a inconsistenias entre los nombres de los barrios de la data de poligonos y los nombres de los barrios de la Encuesta de Calidad de Vida, se procede a realizar reemplazos manuales

Selección de los campos necesarios, barrio y cluster

Se unen los dataframe de barrios_med en donde se encuentra los poligonos de los barrios de Medellín con su respectivo cluster

Se procede a dibujar el mapa de Medellín señalando cada uno de los barrios a que cluster pertenece

Espacialmente vemos como la persepción de los Medellinenses a nivel de la dimensión SALUD no esta claramente sectorizada sino que varia de barrio en barrio sin importar la distancia entre ellos.

Referencias [1] Encuesta calidad de vida. http://medata.gov.co/dataset/encuesta-calidad-de-vida [2] Barrio Vereda. https://geomedellin-m-medellin.opendata.arcgis.com/datasets/c844f0fd764f41b2a808d8747457de8a_4